特征选择的三种方法、基本概念

一、相关概念  在特征选择中涉及到两个过程,一个是子集搜索,一个是子集评价。已知的特征空间的维度,需要去遍历多有可能的子集显然不现实。所以一个可行的做法是,先产生一个候选的子集,然后对该子集进行评价,之后根据这个评价继续搜索特征。子集搜索:(1)向前搜索:每次从待选的特征集A当中当中选定一个特征aka_kak​加入已选的特征集S,使得特征集S∪akS\cup a_kS∪ak​最优,并且大于原来的已选的特征集S.(2)向后搜索:每次从特征空间中删除一个冗余特征。(3)双向搜索:每次选择一个最优的特征(这
摘要由CSDN通过智能技术生成

一、相关概念

  在特征选择中涉及到两个过程,一个是子集搜索,一个是子集评价。已知的特征空间的维度,需要去遍历多有可能的子集显然不现实。所以一个可行的做法是,先产生一个候选的子集,然后对该子集进行评价,之后根据这个评价继续搜索特征。

  • 子集搜索:(1)向前搜索:每次从待选的特征集A当中当中选定一个特征 a k a_k ak加入已选的特征集S,使得特征集 S ∪ a k S\cup a_k Sak最优,并且大于原来的已选的特征集S.(2)向后搜索:每次从特征空间中删除一个冗余特征。(3)双向搜索:每次选择一个最优的特征(这些特征在后续将不会被删除),去除一个冗余的特征。
  • 子集评价:评价选择的特征子集的优劣方法。

二、特征选择的三种类别

  1. 过滤式
      过滤式方法指的是先对特征集进行筛选,然后再进行学习器的训练,特征选择过程对后续的学习器无关。相当于先用特征选择的过程对初始的特征进行过滤,再用过滤后的特征进行模型的训练。
      典型代表有:Relief算法。该算法的思想如下:为每个特征设置一个统计量,所有特征的统计量构成一个向量。统计量代表的是特征的重要程度,最终只要选择对应分量的值大于阈值 τ \tau τ或者前k个特征就行了。统计量构建的方法如下:在 x i x_i xi的同类样本中选择最近邻 x i , n h x_{i,nh} xi,n
  • 0
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值